为了促进机器人技术和AI的最新进展,以进行人类和机器之间的微妙合作,我们提出了Kinova Gemini,这是一种原始的机器人系统,它整合了对话式AI对话和视觉推理,以使Kinova gen3 Lite机器人帮助人们撤回基于观念的对象或完全基于感知的对象选择任务。当一个人走到Kinova Gen3 Lite时,我们的Kinova Gemini能够在三种不同的应用程序中满足用户的要求:(1)它可以与人们进行自然对话,以互动并协助人类检索物体并将其交给用户,并将其交给用户。逐个。 (2)它通过Yolo V3检测到不同的对象,并识别物品的颜色属性,以询问人们是否想通过对话来掌握它,或者使用户可以选择需要哪个特定的特定特定的对象。 (3)它应用了Yolo V3来识别多个对象,并让您选择两个基于感知的挑选和位置任务,例如“将香蕉放入碗中”,并具有视觉推理和对话性交互。
translated by 谷歌翻译
LIDC-IDRI数据库是肺癌预测的最流行的基准。但是,通过放射科医生的主观评估,LIDC中的结节可能与病理基础真理具有完全不同的恶性注释,从而引入了标签分配错误,并在培训期间引起了后续的监督偏见。因此,LIDC数据库需要更多的客观标签来基于学习的癌症预测。基于一个额外的小数据集,该数据集包含通过病理检查诊断的180个结节,我们建议重新标记LIDC数据,以减轻对此强大基准测试的原始注释偏差的影响。我们在本文中证明,基于度量学习的类似结节检索提供新标签将是一种有效的重新标记策略。对这些重新标记的LIDC结节进行的培训可改善模型性能,当添加不确定的结节的新标签时,这将增强。我们进一步推断出,重新标记的LIDC是最终的良好肺癌预测的方便方法,同时构建大型病理预处理的结节数据库提供了长期解决方案。
translated by 谷歌翻译
人类对象与铰接物体的相互作用在日常生活中很普遍。尽管单视图3D重建方面取得了很多进展,但从RGB视频中推断出一个铰接的3D对象模型仍然具有挑战性,显示一个人操纵对象的人。我们从RGB视频中划定了铰接的3D人体对象相互作用重建的任务,并对这项任务进行了五个方法家族的系统基准:3D平面估计,3D Cuboid估计,CAD模型拟合,隐式现场拟合以及自由 - 自由 - 形式网状配件。我们的实验表明,即使提供了有关观察到的对象的地面真相信息,所有方法也难以获得高精度结果。我们确定使任务具有挑战性的关键因素,并为这项具有挑战性的3D计算机视觉任务提出指示。短视频摘要https://www.youtube.com/watch?v=5talkbojzwc
translated by 谷歌翻译
我们在变压器中重新审视设计选择,并提出方法来解决它们在处理长序列中的弱点。首先,我们提出了一个名为“门控注意单元”的简单层,该层允许使用较弱的单头注意,而质量损失最小。然后,我们提出了一种与该新层的线性近似方法互补的,该方法对加速器友好且质量高度竞争。最终的型号(名为Flash)与短(512)和长(8K)上下文长度相匹配,在WIKI-40B上达到高达4.9 $ \ times $的训练速度和PG上的12.1 $ \ times $,在PG上达到了4.9 $ \ times $的困惑。-19用于自动回归语言建模,C4的4.8 $ \ times $用于掩盖语言建模。
translated by 谷歌翻译
我们提出了一种称为基本的组合缩放方法,可在ImageNet ILSVRC-2012验证集上实现85.7%的前1个零点精度,超越了最佳发布的零拍模型 - 剪辑并对齐 - 达9.3%。我们的基本模式还显示出鲁棒性基准的显着改进。例如,在5个测试集中,具有自然分布换档,如想象的 - {A,R,V2,素描}和ObjectNet,我们的车型实现了83.7%的前1个平均精度,只有一个小幅度从其原始的想象精度下降。为实现这些结果,我们扩大了剪辑的对比学习框架,并在三个方面对齐:数据大小,型号大小和批量大小。我们的数据集具有6.6B噪声图像文本对,比对齐的4倍,比夹子大16倍。我们最大的型号具有3B重量,参数比为3.75倍,拖鞋比对齐和夹子更大。我们的批量尺寸为65536,比剪辑的2倍,4倍超过对齐。缩放的主要挑战是我们的加速器的内存有限,如GPU和TPU。因此,我们提出了一种在线渐变缓存的简单方法来克服这个限制。
translated by 谷歌翻译
随着神经网络的命题点云,深入学习已经开始在3D对象识别领域发光,而研究人员则对普遍攻击进行了增长的兴趣来调查点云网络的可靠性。然而,大多数现有研究旨在欺骗人类或防御算法,而少数几个地解决了模型本身的操作原理就在关键点选择方面保持缺陷。在这项工作中,我们提出了两个对抗方法:一个点攻击(OPA)和临界遍历攻击(CTA),它包含可解释的技术,并旨在探讨点云网络的内在工作原理及其对关键点扰动的敏感性。我们的结果表明,流行点云网络可以通过从输入实例转换一个点来欺骗近100美元的成功率。此外,我们展示了不同点归因分布对点云网络的对抗鲁棒性的有趣影响。最后,我们讨论了我们的方法如何促进点云网络的解释性研究。据我们所知,这是一个关于解释性的第一个基于云的对抗方法。我们的代码可在https://github.com/explain3d/exp-one-point-atk-pc上获得。
translated by 谷歌翻译
为了研究非对比计算断层扫描(CT)周围的胸膜,气道和血管是否可以区分良性和恶性肺结核。 LIDC-IDRI DataSet是最大的公共CT数据库之一进行了研究。共有1556例来自694名患者的结节涉及统计分析,其中平均刻录3和> 3的结节分别表示为良性和恶性肿瘤。此外,来自113例诊断患者的339个结节独立地评估了诊断原律。将计算机算法开发成肺部结构并量化胸膜表面,气道和血管的距离,以及结节附近的呼吸道和血管的计数数和归一化。进行差距(或)和Chi-Square(\ Chi ^ 2)测试以证明周围结构的特征与结节恶性肿瘤之间的相关性。在逻辑回归中进行非参数接收器操作特征(ROC)分析,以评估每个结构的辨别能力。对于良性和恶性群体,分别从结节到胸膜,气道和血管的平均距离(6.56,5.19),(37.08,26.43)和(1.42,17.07)mm。结节与通气通路的计数和血管数的相关性分别(或= 22.96,\ Chi ^ 2 = 105.04)和(或= 7.06,\ Chi ^ 2 = 290.11)。结节之间的相关性和气道和血管的体积是(或= 9.19,\ Chi ^ 2 = 159.02)和(或= 2.29,\ Chi ^ 2 = 55.89)。胸膜,呼吸道和血管的曲线下曲线(AUC)分别为0.5202,0.6943和0.6529。我们的研究结果表明,与良性的,恶性结节通常被更多的肺部结构包围,表明这些结构的特征可以被视为肺癌生物标志物。
translated by 谷歌翻译
Transformers have attracted increasing interests in computer vision, but they still fall behind state-of-the-art convolutional networks. In this work, we show that while Transformers tend to have larger model capacity, their generalization can be worse than convolutional networks due to the lack of the right inductive bias. To effectively combine the strengths from both architectures, we present CoAtNets (pronounced "coat" nets), a family of hybrid models built from two key insights:(1) depthwise Convolution and self-Attention can be naturally unified via simple relative attention; (2) vertically stacking convolution layers and attention layers in a principled way is surprisingly effective in improving generalization, capacity and efficiency. Experiments show that our CoAtNets achieve state-of-the-art performance under different resource constraints across various datasets: Without extra data, CoAtNet achieves 86.0% ImageNet top-1 accuracy; When pre-trained with 13M images from ImageNet-21K, our CoAtNet achieves 88.56% top-1 accuracy, matching ViT-huge pre-trained with 300M images from JFT-300M while using 23x less data; Notably, when we further scale up CoAtNet with JFT-3B, it achieves 90.88% top-1 accuracy on ImageNet, establishing a new state-of-the-art result.1 The initial projection stage can be seen as an aggressive down-sampling convolutional stem.
translated by 谷歌翻译
This paper addresses the scalability challenge of architecture search by formulating the task in a differentiable manner. Unlike conventional approaches of applying evolution or reinforcement learning over a discrete and non-differentiable search space, our method is based on the continuous relaxation of the architecture representation, allowing efficient search of the architecture using gradient descent. Extensive experiments on CIFAR-10, ImageNet, Penn Treebank and WikiText-2 show that our algorithm excels in discovering high-performance convolutional architectures for image classification and recurrent architectures for language modeling, while being orders of magnitude faster than state-of-the-art non-differentiable techniques. Our implementation has been made publicly available to facilitate further research on efficient architecture search algorithms.
translated by 谷歌翻译
We present RACE, a new dataset for benchmark evaluation of methods in the reading comprehension task. Collected from the English exams for middle and high school Chinese students in the age range between 12 to 18, RACE consists of near 28,000 passages and near 100,000 questions generated by human experts (English instructors), and covers a variety of topics which are carefully designed for evaluating the students' ability in understanding and reasoning. In particular, the proportion of questions that requires reasoning is much larger in RACE than that in other benchmark datasets for reading comprehension, and there is a significant gap between the performance of the state-of-the-art models (43%) and the ceiling human performance (95%). We hope this new dataset can serve as a valuable resource for research and evaluation in machine comprehension. The dataset is freely available at http://www.cs.cmu.edu/ ˜glai1/data/race/ and the code is available at https://github.com/ qizhex/RACE_AR_baselines
translated by 谷歌翻译